XML Sitemap
GooglebotののためのSitemap
新規ページ、下層ページをGooglebotに存在を伝えるために使う
重要であると判断したページを Google に推奨するためのファイル
sitemapに含まれるすべての URLのクロールされると確約されているものではない
以下のようなケースで有用
サイトが新しく、外部からのリンクが少ない
サイトのページ数が非常に多い
サイトにどこからもリンクされていないページが存在する
例
code:xml
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.example.com/foo.html</loc>
<lastmod>2018-06-04</lastmod>
</url>
<url>
<loc>http://www.example.com/bar.html</loc>
<lastmod>2018-06-05</lastmod>
</url>
..
</urlset>
/mrsekut-book-4839966001/139
もっと複雑な例
tag ref
loc
必須
ページのURL
絶対path
2048文字以下
lastmod
ファイルの最終更新日
以下の形式で書く
2022-06-30T21:10+09:00
2007-06-30
書かなかったらどうなる #??
https://webtan.impress.co.jp/e/2016/09/23/23885/page/1
changefreq
更新頻度
always, hourly, daily, weekly, monthly, yearly, never
crawlerが巡回する目安にするらしい
priority
相対値
全部大きくしても意味ない
Googleでは使われていない ref
sitemapの仕様としては存在するが、実際は使われていないので書く必要ない
参考
/mrsekut-book-4839966001/137 (4-2 Googlebotのクロール促進) ~
サイトマップの作成と送信 | Google 検索セントラル  |  ドキュメント  |  Google Developers
#WIP
Googleは、サイトをクロールするたびにsitemapを確認するわけではない
サイトマップの確認は最初に通知されたときのみ
その後は変更が Google に通知された場合にのみ確認される
以下の場合にのみGoogleにsitemapについて通知する
sitemapが新規作成された場合
更新された場合
lastmodを更新すればいい
未変更のsitemapについて、送信や通知を複数回行わないようにする
いつ見に来る #??
サイトマップ内のページを更新した場合は、<lastmod> フィールドでマークしてください。ref
どこに設置する?
domain内の任意の場所に置き、以下をおこなる
Search Consoleでテストと送信
xml sitemapの形式が正しいか確認できる
robots.txtに記述
/mrsekut-book-4839966001/139
サイトマップレポート
https://support.google.com/webmasters/answer/7451001
サイズ制限
以下を超える場合は分割する
記載URL数が50,000個
ファイルサイズが50MB
Index Sitemapの使用も検討する
/mrsekut-book-4839966001/141
#??
どうやって作る?
どれぐらいの頻度で更新すべき?
非正規ページやnoindexページは記載しなくていい
クロールバジェットの無駄になる
#??
/posts/12とか連番で適当に生成するのってよろしくないよね?
例えば/posts/200は削除済みかもしれない